iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
AI/ ML & Data

菜就多練之我叫小賀逃離DS新手村系列 第 6

Day 6 精益求精-加強學習力道

  • 分享至 

  • xImage
  •  

增強式學習(Reinforcement Learning, RL)🤖

https://ithelp.ithome.com.tw/upload/images/20240810/201557130Y4kpXDMGo.jpg

RL的核心概念是agent跟environment之間的互動過程。具體來說,environment會提供一個state給agent當作input,agent在接收到這個state之後會產生一個action作為output傳送給environment,environment根據這個action回傳一個reward給agent,告訴agent這個action是好還是壞(不一定是binary的reward,也有可能是數值權重),RL的目標是通過這樣的互動過程,找到一個function使得total reward最大化。


實際應用👾

  • 機器人控制
  • 自動駕駛
  • AlphaGo

這邊再舉一個比較可惡的例子,如果讀者們有玩過槍戰類遊戲(CS)或是MOBA game (LOL),你會發現有些玩家用狙擊槍總是彈無虛發(槍戰類的外掛也有可能是跟電腦視覺有關),又或是我的QWER永遠都空招(這裡排除個人技術問題哈哈)對手走位跟鬼一樣,大招每次都能命中我,這類的「外掛」很有可能就是用RL來開發的😡(請大家當個善良的玩家,不要去研發什麼奇怪的外掛破壞遊戲體驗🙏)。

常見的增強式學習演算法 ⚙️

1. Q-Learning

  • 原理:透過在每個state下選擇最佳action來最大化reward的期望值,這是透過反覆更新Q-learning algorithm,使得每個state-action pair有最佳的Q值。

2. Deep Q-Network(DQN)

  • 原理:結合神經網路和Q-Learning來計算Q值,特別適用用於高維度的狀態空間(如:影像資料)。

題外話 😂

今天是七夕,很開心牛郎跟織女終於相見歡,也㊗️有伴的讀者們在往後與伴侶相愛相殺的日子中,一起進步、一起成長,沒有伴的讀者們也沒關係,我們主打一個寧缺勿濫,不要為了交往而交往,希望有情人必需要終成眷屬。

要是問我感情問題,一律一字訣:「」


參考資料 💯

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟


上一篇
Day 5 舉一反三-手標金標都有貼標
下一篇
Day 7 真金不怕火-經得起考驗才是好模型
系列文
菜就多練之我叫小賀逃離DS新手村30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言